Skip to main content

Full text of "Försök med automatisk separering av referenser i en flerspråkig databas"

See other formats


specialbulletin från 



PEDAGOGISK- 

PSYKOLOGISKA 

INSTITUTIONEN 

LARARHOGSKOLAN 
MALMO 



testkonstruktion 

och 

testdata 



Bierschenk, I.: 

FORSOK MED AUTOMATISK SEPARERING AV REFERENSER 
I EN FLERSPRÅKIG DATABAS 



Nr 34 



November 1978 



forsok med automatisk separering av referenser i 
en flerspråkig databas 



Inger Bierschenk 



Bierschenk, I. FOrsok med automatisk separering av referenser i 
en flerspråkig databas. Testkonstruktion och testdata (MalmS: 
Pedagogisk-psykologiska institutionen), Nr 34, November 1978. 

Denna arbetsrapport inom Informations- och dokumentationsprojektet 
(I&D) behandlar den fas i uppråttandet av dokumentbaser som avser 
en automatisk separering av de olika språk som dokumenten i under- 
sokningen år avfattade på. Det pr6vas och diskuteras på vilket satt 
språkliga tecken i ett dokuments bibliografiska data bast tas tillvara 
f5r utvecklingen av sSkrutiner fOr automatisk separering. Det visar 
sig bl a att ett dokuments titel innehåller den låmpligaste informa- 
tionen for detta åndamål samt att det engelska språket år låttast att 
automatiskt identifiera. Dessutom har kontroller av sGkprogrammet 
gjorts, som bl a visar att en automatisk språkseparering tycks vara 
en våg att undvika vissa typer av fei som skulle uppstå vid en ma- 
nuell kodning. 

Nyckelord: Datalingvistik, datorbaserad lexikologi, forskningsin- 
formation, I&D- system, informationslagring, informationsåtervinning. 



- 2 



INNEHÅLL 



Sid 



i. problemfOrankring och material 

2. EXPLORATIVA UTPROVNINGAR 

2. 1 Språkbeståmmande teckenstrångar i specifika 

poster 

2. 2 Fårsta utprdvningen 

2. 3 Andra utprdvningen 

2.4 Tredje utprovningen 

2. 5 Fjårde utpr5vningen 

2. 6 De specifika posternas andel i språkbeståmningen 

3. LEXIKON FOR SPRÅKSEPARERING 

3. 1 Referensspecifika sokord 
3. 2 Språkspecifika s5kord 

3. 3 Olika soknivåer 

4. NÅGRA KONTROLLER OCH JAMFORELSER 

4. 1 Verk och referenser 

4.2 Manuell och automatisk språkbeståmning 
4. 3 Aldre och nyare data 

5. SAMMANFATTNING 

6. REFERENSER 



3 
5 

5 

8 

16 

i? 
19 
25 

27 

27 
28 
31 

33 

33 
34 
36 

38 
41 



- 3 



1. PROBLEMFORANKRING OCH MATERIAL 



Nya informations- och dokumentations system som bygger på anvånd- 
ning av datateknik har installerats runt om i vårlden, men med myc- 
ket varierande effekter. Flera olika informationstyper har blivit till- 
gångliga jåmfort med vad som vanligen kan hittas på bibliotek. Sam- 
tidigt har inforrnationen fbr alit fler blivit mera svåråtkomlig. Ett 
av skålen år att systemen bygger på avancerade tekniska systeml5s- 
ningar. Ett annat skål år att det ånnu inte har kunnat utvecklas pro- 
gram som kan hantera information som presenterats på många olika 
språk. 

Projektet "Information och dokumentation (I&D)" vid pedagogisk- 
psykologiska institutionen har som ett av sina mål att utveckla program 
som tar hånsyn till strukturella fSrhållanden inom olika språk. Detta 
kraver att vi kan utveckla ett regelsystem som hjålper oss att separera 
dokumenten med avseende på sina språkområden. Nyckeln till detta 
år dokumentets bibliografiska beskrivning. 

Denna rapport presenterar de enskilda stegen i processen att ut- 
veckla en algoritm. Syftet år att kunna åstadkomma separeringen au- 
tomatiskt. 

De dokument som utgOr vårt basmaterial år 40 beteendevetenskap- 
liga forskares egna verk och dårtill kopplade referenser (i referens- 
listor och noter). De 40 forskaraa utg5r basmaterialet for ett tidigare 
projekt, dår de intervjuades (se B. Bierschenk, 1974). 

FSr att få en enhetlig form att arbeta efter skapades regler fSr på 
vilket satt alla des sa referenser skulle laggas upp på magnetband. 
F6r den hår framstållningen år den bibliografiska representationen 
av intresse. Dokumenten (referenserna) redigerades enligt interna- 
tionella konventioner (B. Bierschenk, 1973). Vilka problem som upp- 
stod dår har refererats i tidigare arbetsrapporter från projektet och 
behbver inte upprepas fdr fdrståelsen av denna rapport. 

Hur en referens uppdelades f6r datamaskinell bearbetning visas i 
ruta i. 



Ruta 1. Representation av bibliografiska uppgifter fdr data- 
maskinell bearbettiing 



Post Information om 

1 Forfattarnamn med initialer får fdrnarrm och uppgift 
om fftrfattarfunktion, t ex Ed 

2 Titel och undertitel till ett dokument 

3 Utgivningsort (tryckort) 

4 Fbrlag 

5 Utgivningsår, volym, håfte, sidangivelse 

6 Tidskriftsnamn, rapportserie, stencil 

7 Ovriga dokumentkarakteristika 



Posterna 2-6 år de intressanta f6r den hår studien. Det år nåmligen 
informationen inom dessa som år nodvåndiga som identifierare av 
ett dokument och som vanligen anges i en referenslista. 

De 40 forskarnas verk har fått entydiga identifieringskoder, lik- 
som samtliga referenser som tillhdr ett visst verk. Verkens antal år 
ca 800. Antalet referenser år omkring 19 000. (En kompletterande 
datainsamling startade i juni 19?8.) 

Fdr den hår presentationen år det viktigt att nåmna att det vid kod- 
ningen tillåmpades en princip med ett refereringsnummer istållet for 
att hela referensen stansades upp, når kodaren visste att den forekom- 
mit tidigare i materialet. Referensen letades då upp i den I5pande data- 
utskriften och identifikationsnumret sattes in som referens. Meningen 
var att arbetet skulle gå snabbare och att identiska referenser skulle 
laggas till maskinellt i efterhand. For vår del betyder det nu att vi inte 
har vetat det exakta antalet referenser vid utprovningar och beråkningar. 
Det betyder också att inte alla 19 000 referenserna år olika referenser. 



5 - 



2. EXPLORATIVA UTPROVNINGAR 



2. i Språkbeståmmande teckenstrångar i specifika postei- 

For en f5rsta utprovning gjordes ett antagande om vilka ord eller tecken- 
sekvenser som kunde vara av betydelse for att beståmma en referens 
tillhSrighet till ett visst språk. (En teckenstrång - "string of characters" 
kan definieras som en uppsåttning element, vårs enskilda delar anvånds 
for att representera data.) Eftersom varje referens innefattar mellan 1 
och 6 specificerade poster, dår innehållet inom varje post tillhftr en 
viss kategori inom en referens (se ruta 1) beståmdes att antaganden 
kunde goras i forhållande till varje posts innehållskategorier. (Post - 
"character subset" - kan definieras som ett urval från en uppsåttning 
av tecken, som anvånds for ett visst syfte. ) Det betydde i denna f5rsta 
utprovning att vi kunde arbeta med kortidentifieringen som utgangspunkt. 
Det antogs då att post 3 (tryckort) eller post 6 (tidskrift, institutions- 
serie o likn) skulle ge onskat utfall. Vi antog dårmed att tryckorten 
Stockholm anger en svenskspråkig referens och t ex New York en 
engelskspråkig. Likaså kunde ortsangivelse inom post 6 ange svensk 
institutionsrapport, som år vanligt forekommande i materialet. Post 6 
har också vissa typiska drag, som t ex rapport , tidskrift, tidning res- 
pektive Education , University , Psychology . 

Vi f5rsokte tåcka in så många språk som mdjligt av dem som vi 
visste forekommer i materialet. Dårf6r gjordes liknande antaganden 
angående tyska, franska, finska, danska, norska och italienska. Från 
borjan visade det sig att de svenska ortsangivelserna inom post 6 slog 
fei ut. S5kningen gav engelska skrifter utgivna på svenska institutioner. 
Vetskapen om detta gjorde att vi plockade bort de svenska universitets- 
ortnamnen från sokorden for post 6. De strångar som bildade våra 
forstå sOkord visas i ruta 2. Asteriskerna betyder en s k trunkering, 
dår man garderar f5r att strangen år del av ord, dvs det kan forekomma 
tecken både f6re och efter. 

I instruktionerna sades också att når ingen asterisk fårekominer be- 
tyder det att blanktecken f5ljer. Står ingen asterisk framfdr fåregås 
strangen av blank eller utg6r textens b6rjan, dvs kolumn 21. Asterisk 
efter kunde också betyda att punkt fåljer. 



F6r att få en uppfattning om utfallet beståmdes att frekvenser skulle 
beråknas på varje såkstrång. 

For tydlighetens skull poångteras att orden "s5kord" eller "s6k- 
strång" anvånds for att beteckna de sekvenser av tecken som program- 
met s6ker med f6r att diskriminera mellan spraken. 

Ruta 2. Teckenstrångar och sSkord f6r språkseparering: 
Allmånna explorationer* 



i. Antagen svensk 


språkig 


re 


ferens: 






inom post 3 återfinns: 






inom post 6 återfinns: 


Stockholm: 

Lund: 

Malrno: 








ped* 
psyk* 

* skrift* 


Dagens Nyheter 

korr* 

arbet * 


Uppsala: 
Goteborg: 








* tidning * 
SOU 


Sydsvenska Dagbladet 


LinkOping: 

Norrk5ping: 

Umeå: 








* skol* 

* rapport* 
tid skr* 




Helsingfors: 








* for ening* 




Orebro: 








social* 




Falun: 








opubl * 




2. Antagen engelskspråki 


2, referens: 






inom post _3 åte 


rfinns: 






inom post 6 återfinns: 


New York: 








Education* 




Chicago: 








Educ. * 




London: 

Washington: 

Pittsburgh: 








Psychology 

J 

Journ. 


2) 
2) 


Baltimore: 








Journal 


2) 


Los Angeles: 








Bull* 




Boston: 








Rev. * 




San Francisco: 








Review 




Evanstone: 








Diss* 




Glencoe: 








Mimeo* 




Paris: 


1) 






University 




inom post 4 åte 


rfinns: 










University 












Press 












Stanford 












Harvard 












1) Under fdrutsåttning 


att 


post 4 eller 6 innehåll 


er UNESCO 


2) Under forutsåttning 


att 


efterfSlj 


ande strang (ord) inte ar de 



* Innebår att flerspråkighet forekommer (jfr aven kriteriedisk. , s 14) 



- 7 



Ruta 2. (forts) 



3. 


Antagen tyskspråkig referens: 






inom post _3 återfinns: 


inom post 6 återfinns: 




Leipzig: 


z tschr* 




Berlin: 


z 




Heidelberg: 


z sent 




Ziirich: 


F 




Miinchen: 


F.* 




Jena: 


u* 




Bern: 


Pådag* 




Haag: 






Halle: 






Frankfurt: 






Weinheim: 






Tiibingen: 






Dortmund: 






Breisgau: 






Freiburg: 






Hamburg: 3} 






3) Under forutsåttning att post 4 


eller 6 inte innehåller UNESCO 


4. 


Antagen franskspråkig referens: 






inom post_3 återfinns: 


inom post _6 återfinns: 




Paris: 4) 


de 

des 




4) Under forutsåttning att post 4 


eller 6 inte innehåller UNESCO 


5. 


Antagen finskspråkig referens: 

inom post _3 återfinns: 

Helsinki: 
Jy vå skyla: 




6. 


Antageti danskspråkig referens: 






inom post _3 återfinns: 


inom post 6 återfinns: 




K$benhavn: 


dansk 




K5penham.n: 




7. 


Antagen norskspråkig referens: 






inom post 3 återfinns: 


inom post b återfinns: 




Oslo: 


norsk 


8. 


Antagen italienskspråkig referens: 




inom post 3 återfinns: 






Roma: 





Det ska också sagas att ambitionen inte var att vara heltåckande. Det 
skulle ha betytt att vi listat t ex samtliga ortskoder innan specificeringen 
gjordes. Sokorden exemplifierar några vanliga f5rekommande ord eller 
teckensekvenser ur det delmaterial som studerats samt baserar sig på 
kånnedom om materialets utseende och kodning. 



2. 2 Forstå utprovningen 

Utprovningen. skedde på den s k verkbasen, som innefattar våra 40 fors- 
kares egna skrifter. Ett typiskt drag år bl a att den storsta produk- 
tionen foreligger i rapportform, vilket medfor att post 6 haft stor be- 
tydelse. 

SOkrutinen har varit att det forstå ordet som påtråffats inom res- 
pektive post har varit beståmmande for språksepareringen. Posterna 
har avsokts i ordningsfoljd, dvs om post 3 inte givit utslag ("traff") i 
en referens har sdkningen fortsatt i de angivna posterna. De f5rbehåll 
som anges for vissa sokord i ruta 2 (t ex Paris) har inte tagits hånsyn 
till. Det hade komplicerat programmen, vilket bedomdes vara onodigt 
i det hår skedet. 

Feir att kontrollera utfallet låt vi skriva ut verken såsom de inlagts 
i verkbasen. Efter varje referens (och varje post) angavs i en tvåsiffrig 
kod dels vilken språkkod som tilldelats referensen, dels vilken post 
som givit utfallet, Dårmed kunde kontrolleras såvål korrekta som felaktiga 
utfall. Exempel på utskrift ges i ruta 3. (Forfattarnamnen år uteslutna.) 

Det korrekta exemplet visar svensk språkkod (1) och att utfallet fbljt 
av ped * inom post 6. Det forstå felexemplet har registrerat F. i post 6 
som skulle betyda tysk referens (se ruta 2). Detta F. betyder hår "fbr", 
vilket visar att en språkblandning blir resultatet. En dator kan ju i det 
hår fallet inte "forstå" skillnaden. Det andra exemplet har utfallit via 
ortskoden i post 3 och har oriktigt registrerats som svenskt. Det tredje 
har inte fått någon språkkod, eftersom ingen strang av de i ruta 2 an- 
givna har påtråffats. Exemplet visar dels att post 3 inte forekommer 
samtidigt med post 6 (gener ellt), dels att vissa tidskriftsnamn inte bildas 
på det vanliga såttet, dvs f6r tyska språket i form av "Z(eitschrift) 
f(ur). . ." eller liknende. 



Ruta 3 . Exempel på utskrift från verkbasen 



Korrekt utfall: 



Post 
ident 



Referensinnehåll 



Språk 
best 



Språkbeståmningskoder: Forstå kolumnen anger vilket språk det galler, 
1 = sv, 2 = no, 3 = da, 4 = ty, 5 = eng, 6 = fr, 7 = it, 8 = fi. Andra 
kolumnen anger vilken post som bidragit till utfallet. (Utskriften år ej 
identisk med datorutskriften, som t ex inte har gernena bokstavstecken. 



211 


Ar evaluering forskning? 




16 


511 


1971, 0107, 0002. 




16 


.611 


Pedagogisk Tidskrift. 




16 


Felutfall: 






\ 


221 


Standardprovfrågan med sårskild anknytning 




46 


222 


till tyska och engelska från sjunde skolåret. 




46 


511 


1960. 




46 


611 


Riksforen. f. lårarna i modema språk. 




46 


122 


Swedish Council for Social Science Research. 




13 


221 


Two decades of educational research. 




13 


222 


Social Science Research in Sweden 




13 


i 311 


Stockholm: 




13 


411 


The Swedish Council for Social Science Research, 


13 


,511 


1972. 




13 


221 


Probleme der Schuldemokratie: Forschungsaufgaben 




222 


und Schwedische Ausgangspunkte. 






511 


1968. 0005 






611 


Didakometrie und Soziometrie. 




-..- ,i,--- -i ... i 









Några beråkningar har inte utf5rts på dessa explorationer. Istållet gicks 
verkbasen igenom (ca 470 verk). Bet gållde nu att på basis av dessa ut- 
fall stalla några hypoteser angående vilka teckensekvenser som var de 
låmpligaste att anvånda fdr att språkligt dela upp våra baser. En fOrsta 
åtgård var att anvånda samma sokprocedur på referensbasen (med ett 
urval av samma storlek som verkbasen) f5r att få en uppfattning om 
eventuella skillnader. Dessutom skulle vi kunna få så många alterna- 
tiva val som mojligt. Ett prov gjordes i samband med denna bas: vi 
antog att det lilla ordet of hade stor verkan vid separeringen på engelska. 



10 - 









Istållet for Journal och flera andra ord (Journal kan också vara franska) 
kunde i fOrsta hand of anvåndas i post 6. 

Referensbasen har gatts igenom mera systematiskt med avseende på 
de olika ordens utfall. Vi ska hår inte gå in i detalj utan endast ange de 
mest våsentliga resultaten (jfr sokorden i ruta 2). De baserar sig på au- 
tomatisk frekvensråkning. 

I den svenska basen har p_ed* , j^kol* och rapport haft den ojårnfSr- 
ligt storsta effekten f6r utfallet inom post 6, dårefter foljer psyk * . Det 
ger en bra bild av åmnesområdets institutionella forankring. I fråga om 
tryckorten (for bScker) dominerar Stockholm starkt. Andra dvriga orter 
ty eks inte ha en tiondels andel av vad Stockholm har. 

Norska och danska utfall år få. Endast Oslo verkar ge något våsentligt. 
Tyska referenser har knappast forekommit i provmaterialet. En "traff" 
på ,Z har registrerats. Franska, italienska och finska har inte f5re- 
kommit, enligt beråkningarna. 

Det stårsta antalet totalt sett finns i den engelska basen. Lika domine- 
rende som Stockholm tyeks vara f5r svenskt språk år New York fdr 
engelskspråkiga referenser. Ovriga orter har myeket liten betydelse 
fSrutom London . Når det galler post 6 har vårt prov med of slagit bast 
ut. Det får dubbelt så många "tråffar" som nårmast fbljande Review. 
Dårefter foljer Educ* , University och J_. Dessutom har post 4 någon 
liten betydelse når det galler amerikanska universitetsfSrlag av typen 
Harvard University Press. Når post 3 inte har gett utfall, så kan alltså 
nårmaste post (4) hjålpa till. 

Felaktiga utfall syns emellertid inte i denna frekvensråkning (se 
typer i ruta 3). 

Eftersom det visade sig att of hade god effekt, kunde det antas att 
det aven på andra kortnummer hade samma verkan. Post 2 kommer då 
i fårgrunden. Dessutom såg vi (ruta 3) att tryckorten hade många felut- 
fall. Doktorsavhandlingar och andra boktryck ges t ex ut i Stockholm på 
engelska och många liknande fei skapar ohådigt brus i baserna. Den 
manuella genomgången och omkodningen skulle ta fOr myeket tid i an- 
språk om sådana tydliga felkållor inte togs bort. 

En beråkning gjordes på (i) hur många korrekta referenser som 
listats, (2) hur många felaktiga utfall som intråffat och (3) hur många 



11 - 



som återstår, kallade "ovriga". De ovriga år således sådana som pga 
programmets begrånsningar inte automatiskt har beståmts. De ska inte 
forvåxlas med de felaktiga. Det exakta antalet referenser i provmaterialet 
år 733. Proportionerna visas i tabell i. 

Tabell 1 . Språkbeståmning av referenser: 

Utfall av sbkning i nom posterna 3, 4 och 6. 
Provmaterial 





f 


% 


Korrekta 

utfall 


572 


78.03 


Felaktiga 
utfall 


27 


3.08 


Ovriga 


144 


19.73 


2 


733 





Som tabellen visar år felen inte många, Men andelen referenser som 
inte kodats år tillråckligt många f6r att vi ska behova justera i sok- 
orden. Frågan uppstod på vilket satt denna justering ska ske. Blir 
utfallet båttre om vi lagger till ett antal s6kstrångar, t ex flera tryck- 
orter for att post 3 ska ge mera? Eiler bor vi forsoka vara entydigare 
i sådana karakteristika som år typiska for ett visst språk, bortsett 
från vad som år typiskt f6r referenser? Anvåndningen av of tydde på 
att det kunde vara en våg. Samtliga post 2 studerades dårefter, efter- 
som det år titeln som ger "cues" till entydiga språkdrag. Språkdrag 
kan då definieras som strukturelle drag, dvs sådana tecken som tillhor 
den syntaktiska uppbyggnaden. Vi kan ta ett exempel från titeln "On 
learning and human ability", dår prepositionen on och konjunktionen 
and tillhSr såttet att konstruera meningar. De andra orden tillhdr 
språkets innehållsliga enheter. Dessa har emellertid också syntak- 
tiska drag, t ex att learn bildar verbalsubstantiv genom suffixet -ing . 
F6r att kunna instruera en dator att tilldela denna referens till en 
engelsk bas fordras att datorn har tillgång till t ex engelska preposi- 
tioner eller engelska suffix, en lista (lexikon) som inte skulle bli sår- 
skilt stor. Om vi skulle vilja att ordet ability utgjorde "cue" till en 



12 - 



engelsk referensbas, fordras dåremot att datorn har i sitt minne samt- 
liga engelska substantiv (i betydelsen uppslagsord, se Allen, m fl, 
19?7, (kap 4). Visserligen år det mSjligt att beståmma denna vokabulars 
utseende och omfang, men det vore opraktiskt att lata minst åtta språks 
lexikon utgdra sokorden for en matchning mot det empiriska materialet. 
Dessutom blir soktiden långre med strångarnas långd. Alltså kan man 
tanka sig att vissa "småord" eller "formord" år en båttre våg. Dessas 
antal år också begrånsat i varje språk (fornyelse sker knappast). Vi 
maste bara forsoka undvika att ett ord inte också finns i flera språks 
lexikon, t ex de vanliga den , in etc. F6r att illustrera problemet 
visar ruta 4 en matris med exempel på formord som kan fdrekomma 
som teckensekvens i fler ån ett språk. Exemplen år håmtade ur prov- 
materialet. 



Ruta 4. Exempel på formord som kan forekomma som 
teckensekvens i flera språk 



Ord (tecken- 








Språk 








sekvens) 


sv 


da 


no 


eng ty 


fr 


it 


fi 


om 


x 


x 


x 










for 


x 


x 


x 


x 








in 


x 






x x 




x 




to 




31 


3 


x 








på 


x 


X 


X 










mot 


x 




X 










i 


x 


x 


x 










an 


x 






x x 








med 


x 




x 










av 


x 




x 










a 








x 


x 


x 




under 


x 


x 


x 


x 








at 




x 


x 


x 








att 


x 




x 










vid 


x 


x 


x 










den 


x 


x 


x 


x 








der 




x 


x 


x 








la 










x 


x 




des 








x 


x 






ja 


x 


x 


x 


x 






x 


ne 










x 


x 


x 



- 13 - 



Utan att gå in på olika betydelse och funktion hos orden i olika språk 
kan vi tydligt se att en hel del ord, betraktade som en kombination av 
tecken, kan forekomma i flera språk. Noggrannare ordbokskontroller 
an i våra exempel skulle kanske ge flera likheter an vad vår matris 
exemplifierar . Datorn "vet" emellertid ingenting om dessa likheter 
utan kan bara reagera på våra instruktioner. Om vi alltså ger instruk- 
tionen att sortera in en titel i den svenska basen om i titeln påtråffas 
strangen in, så år det h6gst sannolikt att denna bas till st5rsta delen 
kommer att innehålla tyska och engelska titlar, I bada spraken finns 
in i likartad funktion. 

Vi kan också ha andra fall, dår teckensekvensen år en preposition i 
ett språk och t ex ett substantiv eller ett verb i ett annat (t ex mot , som 
på nor ska betyder "mod", for som på svenska år preteritum av verbet 
"fara"). 

De olika funktionerna år olika vanliga rent generellt i språket, 
vilket vi bor ta hånsyn till vid en bedOmning av rimliga konsekvenser 
av enskilda s5kord. Det år ju bl a dårfor som prepositionernas struk- 
turella egenskaper år den framstå utgångspunkten i det hår f6rs6ket. 
Vår kånnedom om åmnesområdet kan också hjålpa till att utforma en 
sokprofil med ett så entydigt utfall per specificerat språk som mojligt. 
For diskussionen kan uppstållningen i ruta 5 vara till hjalp: 

Ruta 5. Ord som tecken: Dimensioner i en flerspråkig databas 





i 






2 


Spe cif ik 


ett språk 
en funktion 

3 






ett språk 

fler ån en funktion 

4 


Ospecifik 
i . .. 


fler an ett 
en funktion 


sp 


råk 


fler ån ett språk 
fler ån en funktion 



De två forstå dimensionerna torde vara oproblematiska vid språk- 
specifik sokning. Om ett ord (teckensekvens) har flera funktioner 
men begrånsade till endast ett språk, så fungerar det ånda som s6k- 
ord. Ord som kan hånfOras till dimensionerna i och 2 kan tas med i 
ett separeringslexikon. 



- 1 A 



Dimensionerna 3 och 4 år bada prohlematiska for vårt vidkommande 
(se ruta 4). Bada ar f5r åndamålet ospecifika. Ju fler språk och funk- 
tioner som ar inblandade, desto såmre år sekvensen. Det visar sig 
emellertid att inte enbart antal språk behOver vara avgorande vid beslut 
om vilka ord som kan inga i ett separeringslexikon. Andra faktorer kan 
vara med och avvåga. Ett ord med samma funktion i flera språk kunde 
t ex vara hogt frekvent i ett av dem men till synes nollfrekvent i andra 
(råknat på ett testmaterial). Ett annat exempel år att forekomsten 
endast avser två språk, dår funktionen år olika i vart och ett av spra- 
ken. I det forstå fallet galler det att avgora om potentiell fSrekomst 
råcker f5r att utesluta ordet. I det andra vågs innehållsliga faktorer 
in. Några kriterier f6r våra separeringsfors5k stålldes dårf5r upp. 

Ett ord togs med i ett separeringslexikon 

1. om det våntades forekomma i bara ett språk, oavsett om det kunde 
ha fler an en funktion, 

2. om det skulle kunna forekomma i ett hogfrekvent språk och sam- 
tidigt i ett lågfrekvent språk, men i annan funktion, 

3. om det skulle kunna forekomma i två hogfrekventa språk, men 
med en innehållslig funktion i det ena språket, som inte f5r- 
våntades forekomma, 

4. om det skulle kunna forekomma i både hogfrekvent och lågfrek- 
vent språk i samma funktion, men med så proportionellt hog 
frekvens i det h5gfrekventa språket att det antogs innebåra stårre 
fOrlust f6r utfallet att inte ha ordet med an att titlar från ett låg- 
frekvent språk biandades in. 

Exempel på kriterium (1} år of, på (2) att (norska "åter"), på (3) and 
(fågeln "and" på svenska) och på (4) hos (jfr ovr nordiska). 

Exempel på Overvåganden dår ett ord inte togs med år mot. Det f5re- 
kommer i ett hogfrekvent och samtidigt ett lågfrekvent språk i materialet 
(vilket våra preliminåra beråkningar tyder på). Detta ord betyder på 
norska "mod". Vi kan inte utesluta att litteraturen från Norge handlar om 
mod. Referenser i beteendevetenskap kan handla om en hel del, som vi 
inte omedelbart forknippar med området. Mod år emellertid en psykisk 
foreteelse, en abstraktion som inte kan uteslutas. Det kan dåremot and , 
som år konkret och tillhSr ett annat område (fågiar). 

Låsaren g6rs hår uppmårksam på att det finns mojligheter att arbeta 
på en ånnu "hogre" nivå, nåmligen den grafotaktiska, som fOrsoker att 



15 



med hjalp av vissa unika grafemkombinationer specificera olika språk 
(t ex distinktionen kk/ck). Denna rava studeras inte hår (se vidare kap 
j • ~r] . 

Såvål sjålva kriterierna som besluten bygger på antaganden som 
gjordes med hjalp av ett provmaterial. Några vanliga ordbdcker och 
ordlister anvåndes for en staka kontroller. 

Nåsta steg var att studera utfallet av en sSkning i dessa 7 33 refe- 
renser inom post 2. Vi skulle sedan kunna jåmfora resultatet av titel- 
sokningen (språkspecifika "cues") med såkningen inom posterna 3, 4 
och 6 (referensspecifika "cues"). 

For att få båttre overblick vid nåsta utprovning togs bara de troligen 
stårsta spraken svenska och engelska ut i en forstå omgang. En lista 
ges i ruta 6. Till dessa ord lades ett par sSkord, som torde vara centrala 
for många studier inom området och som bor kunna fungera når andra 
inte g5r det. 

Ruta 6. Språkspecifika ord får sokning av svenska och engelska titlar 



Titeln år 


svensk om 


Titeln år 


engelsk om 


inom 


post 


2 återfinns: 


inom 


post 


2 återfinns :- 


att 




mellan 


and 




some 


eller 




och 


as 




the 


ett 




samt 


from 




towards 


från 




som 


ho w 




who 


fdr 




till 


is 




with 


hos 




ur 


its 






hur 




vad 


of 






inf6r 




vern 


on 






inom 




år 


or 






dessutom: 


skola* 


school* 





Orden togs fram i genomgången av listan och har inte anspråk på att 
vara typiska annat ån f5r provmaterialet (flera skulle ha kunnat listas 
ur respektive språk). 

Fdr att kunna bedoma rimligheten i att nåstan uteslutande anvånda 
post 2 i sokningen gicks referenserna igenom, så att en anteckning 
gjordes for varje referens som skulle ha fallit ut genom sSkning inom 
post 2 med orden ur ruta 6. Sådana antagna korrekta utfall kan då dis- 
kuteras med hånsyn till resultatet i tabell 1 (s 11). Eftersom en preli- 



16 



minår beråkning inte år direkt jåmfårbar ska endast några tendenser 
anges: Antalet korrekta utfall vid fOrsta utprøvningen var 78 %. Søk- 
ningen foretogs då med ett større antal søkord och innefattade posterna 
3, 4 och 6. Post 6 hade dårvid stor betydelse, dvs verkbasen innehåller 
många institutions- och tidskriftsartiklar. Om vi nu s6ker igen med 
några få sokord for engelska och svenska referenser inom titlarna med 
tillagg av New York och London f Or engelska bOcker samt ordet Press 
for post 4, så tycks det som om omkring 80 % korrekta utfall skulle 
uppnås, och då har vi ånda inte post 6 med, Eftersom vissa tvetydigheter 
finns på post 6, t ex att Educ* också ger svenska rapporter, kan alla 
sådana "Overblivna" referenser studeras separat. 

Till instruktionerna for en fOrnyad utprøvning lades Onskemålet att 
separeringen skulle gåras hierarkiskt, dvs de svenska referenserna 
skulle tas ut i en forstå omgang, sedan de engelska. Dårmed undviks 
sådana (om an få) fall dår ett engelskt begrepp, t ex namn på ett test, 
studeras i en svensk rapport eller artikel. Det forstå ordet i en titel 
kan dårmed vara 'the' som skulle tillordna referensen till en engelsk 
bas. Tillågget visade sig inte mojligt att gora i det hår skedet. 



2. 3 Andra utprøvningen 

En fOrsta kontrollkorning på ca 1 000 kort gjordes. Det visade sig att 
utfallen via post 2 dels har storsta andelen utfall, dels år helt korrekta 
(n = 147 av totalt 187 referenser). Tillsammans med några få korrekta 
utfall på post 3 (f5r engelska New York och London ) utgår de 86 % på 
detta lilla material. 

Nu gjordes en fOrnyad sOkning, denna gang på ett antal av ca 8 000 
kort for beråkningar av utfallen och for att en specificering ska kunna 
ske mot bakgrund av felen och de obeståmda. Detta storre material 
innehåller totalt i 384 referenser, som fordelar sig så att antalet 
korrekta svenska och engelska utgår i 101. 283 referenser har inte ut- 
fallit via såkorden. Korrekta utfall ser i detta material ut att utgOra ca 
80 %, dvs omkring 6 % skillnad jamført med ett material, på 1 000 kort. 
Vad som fråmst tycks orsaka att felutfallen åkar något år dels att for- 
fattarna skiljer sig åt, dvs lite iångre fram i materialet visar det sig 
att ett par forfatta re har en mer differentierad referenslista, dels att 



17 - 



en person (vi har kommit fram tom person nr 4) har tyskspråkiga 
referenser, vilka inte alis har forekommit på. de fårsta 1 000. De 
tyska referenserna år flest av Ovriga språk hittills i materialet. Av 
felutfallen utgOr de ca 9 %. F5r att reducera felen kan dårfOr tyska 
sokord laggas till. Utsikten att en fortsatt sOkning på ytterligare ma- 
terial (eller hela materialet) reducerar antalet obeståmda år stor. 
Det beslots att tyska sokstrångar skulle laggas till och att dessa till- 
sammans med Ovriga sokord skulle testas på en del av materialet, 
dår det forvåntades variationsrikedom i referenserna, dvs person 09 
och 20. Dessutom skulle vi lista spraken for sig, engelska, svenska 
och tyska samt en extra lista for "ovrigt" f'6r den fortsatta overskåd- 
lighetens skull. De tyska tillåggen anges i ruta 7. 

Ruta 7 . Språkspecifika ord fdr sokning av tyska titlar 



Tite 


.ln 


år 


ty. 


sk om 


inom post 


2 åte r finns: 


auf 










und 




das 










von 




die 










iiber 




fur 










zum 




lm 










aur 




mit 














des 


sutom 


; g 


chul* 


















- ._.- — 



En gardering for kort 6 gjordes mot bakgrund av de forstå testningar- 
na, nåmligen att forkortningen _Z for tidskriftsnamn togs med. Dåremot 
har inga tryckorter angivits på tyska. Dessa tycks vara många och 
ingen dominerar lika starkt som New York for de engelskspråkiga. 

2. 4 Tredje utprovningen 

Andelen referenser for de sSkta spraken och restutfallet visas i tabell 2. 

Tabell 2. Språkbeståmning av referenser: 

Utfall av s5kning inom post 2. Delmaterial 



Eng 


Sv 




Ty 


Ovr 


f 1 


k i 


% 


f 


% f 



% 



f 



% 



Korrekt 1617 38 824 19 345 8 2786 65 

Fei 9 2 3 

Ovriga 1469 34 34 

2J 1626 38 826 19 348 8 1469 4269 99 
Procenttalen har avrundats till nårmaste heltal 



- 11 



De nio engelska felen har flera orsaker: sex fei beror på att J^ inom 
post 6 också samlat franska tidskrifter. Detta har tidigare konsta- 
terats, men sokordet hade ej borttagits. Dessutom hade samma s6k- 
ord givit en finsk ref er ens. Kort 4 Press har givit mycket få utfall, 
daribland ett fei, som var en norsk referens. De fei som registrerats 
i den svenska listan år två som , som visat sig vara danska titlar, ett 
forbiseende vid specificeringen av sokorden. Det tyska sokordet von 
gav två svenska referenser, dar på titelkortet finns ett personnamn 
mec * von ' Von togs med enligt det forstå kriteriet. For såkerhets 
skull tas det bort igen. Någon forfattare kan ha skrivit bibliografier 
Over en person, vårs namn då forekommer i titeln. Det tredje felet 
beror på att en finsk titel har en tysk oversåttning tillagd. Post 4 ut- 
går nu ur fors5ken. 

Vi ser hår att den s k restlistan (kategorin Ovrigt) år forhållande- 
vis stor. Det beror på att de två personernas referenser år mycket 
variationsrika, både till innehåll, form och språk. Det senare år mest 
betydelsefullt på det hår stadiet. Mångden tyska referenser år stor jåm- 
fort med tidigare utpr6vningar. Dessutom finns mycket franska och 
latin. 

Eftersom restlistan var relativt stor, beståmdes att den nya sok- 
ningen skulle ske enbart på den och samtidigt vara ett test innan hela 
materialet togs med, Med hånsyn till de fei som upptåcktes har s5k- 
orden f rån rutorna 5 och 6 justerats. Som skulle egentligen inte ha 
kvalificerat sig. Frekvensen på svenskt material (kriterium 4) var f5r 
låg. 

De olika språkens andel har studerats, dår det visar sig att svenska, 
engelska och tyska tycks uppta nårmare 80 %. Latin har en fSrvånans- 
vårt hog andel (6 %), vilket beror på att det forekommer ofta hos en 
enda fGrfattare, Men eftersom latin dels inte kan hånforas till sårskilda 
lander (utsorterade via tryckorter), dels inte år spritt over flera for- 
fattare, gors inga forsdk till s5kord. Franska dåremot kan finnas hos 
flera personer, likaså norska och danska. Ovriga språk upptar bara 
1 % (daribland finska och italienska, se ruta 2) och blir utan sokord. 

Det år tydligt att vi behover arbeta med ett mer åndamålsenligt syn- 
sått fdr att få denna sprakseparering fårdig. (En fortsatt metodutveck- 



19 



ling kan ske sedan, når samtliga i projektet involverade har tillgodo- 
setts for sitt fortsatta arbete. ) Redan tabell 2 visade att felen inte 
blir många, vilket betyder att de kan tas ut manuellt och insorteras 
i efterhand i rått språkbas. 

Med det åndamålsenliga for Sgonen innebår det också att vi som 
s5kord på titel maste infdra åmnesord (fdrutom skola* , etc) for att 
undvika en for stor restlista. Åmnesorden ger ensamma en mångd 
referenser fråmst av typen lårob5cker och handbocker, alltså med 
korta titlar. Dessa ord år då typiska for materialet» t ex ft p sykolo gi * , 
E£zie_hunjg* , child* . * psykologi * finns i de tre skandinaviska spraken 
och dår kommer en blandning att ske. Det år emellertid en snabbare 
våg att lata dessa fei fdrekomma och ratta dem manuellt, an att just 
nu f5rs5ka prova ut på vilket satt referenserna ånda kommer ut kor- 
rekt. Det visar sig alltså att många problem uppstår når man onskar 
att ett visst sSkord ska ge fullstendigt kor r ekta utfall. Sådant år svart 
att uppnå når soklogiken år den enklast tånkbara (jfr ruta 2, och s 16 
dår inskrånkningar, som skulle ha betytt programmeringssvårigheter, 
inte togs med). Om vi t ex hade velat att * psykologi* skulle fungera 
100%-igt, hade det beh$vts en tillåggsregel som t ex sager att post 3 
inte samtidigt får innehålla Oslo , eller att sokning skulle ske hierarkiskt. 

Sådana pragmatiska stållningstaganden medfårde utokat antal s5k- 
ord och sex sokta språk. 



2. 5 Fjarde utprovningen 

Innan vi låt programmet verka på hela referensbasen, testades det på 
restlistan från fdregående utprovning. Några justeringar behdvde goras 
i sokordens trunkeringar och några stansfel (stavfel) råttades. Dår- 
efter har hela referensbasen (dvs de fullståndiga referenser som ligger 
i samma fil) genomsokts. Vi har fått ut en lista f5r vart och ett av 
spraken svenska, norska, danska, tyska. engelska och franska. Alla 
andra språk samt av annat skål oklassificerat finns på en sårskild 
lista, som språkbeståmts manuellt. 

De sokord som. har kommit till anvåndning i denna sokning presen- 
teras i ruta 8. Resultatdiskussion sker dårefter. 



20 - 



Ruta 8. Teckenstrångar och sokord f5r 
språkseparering av referenser 



* • Svenskspråkig referens 

inom post 2 återfinns: 

år till 

ur inom 

och samt 

f6r från 

att infor 

hos eller 

ett mellan. 

vad betånkande 

vern någ* 

hur vux* 

inom post 6 återfinns: 



SOU 
och 

års* 



prop' 1 ' 
arbet* 
lar ar* 



2. Norskspråkig referens 
inom post Z återfinns: 
norsk 

inom post 6 återfinns: 

Oslo 

norsk 

3. Danskspråkig referens 
inom post 2 återfinns; 
undersogelse 

inom post 6 återfinns: 

Kbhn 
dansk 



ars -1 * 

låro* 

barn* 

Sverige* 

beteende* 

uppfostr* 

begåvning* 

personlighet* 

* skola* 

* skolor* 



* svensk* 

* utredning* 



inom post 3 återfinns: 

Oslo 

Kristiania 

Krist. 



* svensk* 

* arbet* 

* undersokning* 
*utbildning* 

* utredning* 
*måtning* 

* historia* 

* psykologi* 
*pedagogiska* 
*pedagogik* 



inom post 3 återfinns: 

Kobenhavn 
Kåpenhamn 

Odense 



Ruta 8. (forts) 



21 



4. Tysk 


språkig referens 








inom 


post 2 återfinns: 






inom post 3 återfinns: 


im 


mit 


schrift* 




Leipzig 


und 


tiber 


bild ung* 




Berlin 


das 


oder 


erziehung* 




Frankf. 


zur 


ohne 


pådagogisch* 






zum 


nach 


untersuchung* 






f tir 


pådagogik 


psychologisch* 






bei 


geschichte 


* jugend* 






als 


ein* 


*unterricht* 






vom 


werk* 


*buch* 






auf 


schul* 


*forschung* 






die 


deutsch* 


*wissens chaf t * 






inom 


post 6 återfinns: 








und 










* schrift* 








5. Enge 


Lskspråkig referens 








inom 


post 2 återfinns: 








of 


how 


studies 




psychological 


is 


who 


learning 




child* 


on 


with 


research 




teach* 


by 


from 


training 




adult* 


or 


some 


analysis 




school* 


as 


into 


education 




measur* 


the 


study 


psychology 




reading* 


and 


towards 


personality 




america* 


its 


methods 


educational 






inom 


post 6 återfinns 


inom post 3 återfinn 


s: 


Review 


London 




New York 






Chicago 




Pittsburgh 






Oxford 




San Francisco 


6. Franskspråkig referens 


inom post 3 åtei 


finn 


s: 


inom 


post 2 återfinns: 


ou 


pour 


Paris 






un 


chec 








les 


France 


inom post 6 åtet 


finns: 


sur 


1' 








une 


oeuvre 


Paris 






dans 


franyaise 


Revue 







De tyska orden, utom ortnamnen, har ej markerats med versaler, 
eftersom vår tekniska utrustning inte medger denna skillnad, 



- 22 - 



Efter våra forstå explorationer har vi alltså kommit fram till att 
dessa sokord ger oss ett tåmligen bra resultat. Jåmfart med ruta 2 
(s 7) ser vi att post 3 och 6 har liten betydelse nu och att våra huvud- 
sakliga ord finns inom titeln (post 2). Några sokord gav inget utfall 
(ca 15 st). Det gållde fråmst några specificerade på post 6, dår tydli- 
gen referensen har klassificerats utan dessa ord, t ex 'Z' som lades 
till. De redovisas inte hår. Som vi kan se har ord från post 6 biivit 
mycket få. 

Resultatet från denna utpråvning, som tills vidare får betraktas 
som slutgiltig, ska nu redovisas i detalj. Fdrst presenterar vi lite 
siffermaterial och sedan vad dessa siffror står fdr. En overblick 6ver 
fordelningen av hela utfallet ges i tabell 3 (s 23). 

Kategorin Ovriga anger de referenser som inte biivit beståmda ge- 
nora sdkprogrammet, dvs "cues" har saknats. Vi kan jåmfora med prov- 
materialet från tabell i. Dår ser vi att andelen korrekta nu stigit med 
nårmare 10 %, troligen till foljd av att s6kning i titelposten år såkrare 
ån i de ovriga. Tabellen ger dessutom fordelningen korrekta och fel- 
aktiga utfall f dr de sex spraken. 

Av tabellsiffrorna kan vi bl a utlåsa att referenser på engelska och 
svenska år mest fSrekommande och att de dessutom har minst antal 
fei. Vi ser också att franska tycks ha ovanligt många felutfall. Vad 
felen har berott på redovisas i ruta 9 (s 24). 

Av felanalysen i ruta 9 ser vi att de fiesta fei finns bland de svenska 
med * psykologi * och * pedagogi k* som sokord» Det var också våntat 
och dessa fei har vi tagit hand om manuellt. Andra fei i den svenska 
basen var inte lika våntade. Några ska kommenteras: Att och fore- 
kommer i norska och danska var inte våntat. Flera ordlistor som an- 
vånts tar inte upp ordet, och når det tas upp sags det att ordet på norska 
eller danska stavas og, Dåremot har hos funnits i medvetandet enligt det 
fjårde kriteriet, likaså eller . Ordet barn* kunde lika garna ha stavats 
bj^rn* . Att såvål barn * som fo r hå nf orts till danska kan bero på att den 
IBM- stans som anvånts inte har det danska ^-tecknet. Varje referens 
som innehållit detta tecken har stansoperatrisen fSråndrat till ett 5 
eller det svenska ordet. Det finns troligen fler fall ån vad som registre- 
rats via vår sokteknik. 



Tabell 3, Språkbeståmning av referenser 





R 


esultat f: 


rån sex 


språk. 


Hela 


mate ri 


alet 




























Eng 
f 


% 


Sv 
f 


% 


Ty 
f 


% 


Fr 

f 


% 


No 

f 


% 


Da 

f 


% 


Ovr 

f 


% 


f 


% 




Korrekta 
utfall 




591 i 


50 


3341 


28 


666 


6 


145 


i 


72 


.6 


42 


.4 




10177 


86 


i 
ro 


Felaktiga 

utfall 




4 





44 





12 





16 





4 





1 









81 


1 


i 


Gvriga 




























157 3 


13 




13 




2 




5915 


50 


3385 


28 


673 


6 


161 


i 


76 


.6 


43 


.4 


1573 




11831 







Procenttaien år beråknade på totalsuraman =11 831 



Ruta 9 . Felprotokoll 



24 - 



Automat. 


Antal 


Korrekt 


Or sak 


Post 


Orsak 


Kommentar 


klassif. 




klassif. 


(sokord) 


nr 


(annan) 




i. Engelsk 


2 


dansk 


of 


(2) 


felstans 


og of 




1 


svensk 


study 


(2) 




pilot- study 




i 


tysk 


and 


(2) 


felstans 


and und 


2. Svensk 


11 


norsk 


* psykologi* 


(2) 




våntat 




9 


norsk 


*pedagogik* 


(2) 




våntat 




4 


dansk 


* psykologi* 


(2) 




våntat 




3 


norsk 


och 


(6) 




ej våntat 




2 


norsk 


och 


(2) 




ej våntat 




2 


dansk 


*pedagogik* 


(2) 




våntat 




2 


norsk 


hos 


(2) 




medveten om 




2 


dansk 


barn* 


(2) 




medveten om 




2 


tysk 


* psykologi* 


(2) 




psykologie 




i 


dansk 


eller 


(2) 




medveten om 




1 


dansk 


for 


(2) 


felstans 


av "f6rr" 




1 


norsk 


* svensk* 


(2) 




ej våntat 




i 


norsk 


* und e r s Skning * 


(2) 




ej våntat, 
lapsus 




1 


tysk 


*års* 


(6) 




i årsbok 


3. Tysk 


10 


latin 


Berlin, 
Leipzig 


(3) 




tillhor 
"dvriga" 
kort 3 går 




1 


finsk 


zur 


(2) 




e J 

tysk Svers 
av titeln 
morn / / 




1 


norsk 


ein* 


(2) 




blev Einar 


4. Fransk 


11 


latin 


Paris 


(3) 




ej våntat 




2 


svensk 


dans 


(2) 




medveten 
om men ej 
antaget 




2 


engelsk 


Paris 


(3) 




medv (OECD) 




1 


italiensk 


r 


(2) 




våntat 


5. Norsk 


2 


svensk 


Oslo 


(6) 




finlandsk 
forf 




1 


engelsk 


Oslo 


(3) 








1 


svensk 


Oslo 


(3) 




utgivn 


6. Dansk 


1 


engelsk 


Kopenhamn 


(3) 




svensk forf 



25 - 



En forfattare har, som vi vet, låst latin, vilket vi inte bar sokord for. 

Det år fråmst franska och tyska ortnamn som dOljer de latinska verken. 
De resterande felen år av sådant slag att det år svart att gardera sig 
mot dem, t ex omedvetna felstansningar eller felstavningar i ursprungs- 
materialet. Dessutom år fiera forekommande språk så fåtaliga till repre- 
sentationen att det inte år rimligt att forsoka gardera sig mot eventuella 
fårekomster. Att det svenska substantivet 'dans' skulle forekomma an- 
togs inte (kriterium 3). Misstaget blev helt klart når vi upptåckte refe- 
rensen i fråga: "Ingen dans på rosor" som ju tillh5r den senare tidens 
pcpulår-psykologiska romaner. 

2. 6 De specifika posternas andel i språkbeståmningen 

Vi har nu gjort våra explorationer i materialet. Vi borjade med en upp- 
såttning s6kord från de poster som anger tryckort (3), forlag (4) och 
tidskrift/institution (6). Vartefter forsaken fortskred såg vi att ortsan- 
givelser (oavsett post) inte ger entydiga utfall, vilket till sist med- 
forde en åndring av sokrutinen till att galla titelposten (2) i fSrsta 
hand. Det lårde oss bl a att vi inte behover ha så stort lexikon att 
matcha texten mot vid beståmningen. Vi har också sett att det går att 
få fram en kårna av språkspecifika sdkord, som tillsammans med 
andra mera åndamålsenligt antagna fungerar for detta beståmda syfte. 
Dessutom har de olika posterna kompletterat varandra. Dår titelposten 
inte kunnat anvåndas får beståmning har 6vriga poster tagits till hjalp. 
Detta kapitels slutredovisning innebår att vi ska titta på hur posternas 
anvåndning har f5rdelat sig i vår stora sokning. Enligt utfallet som 
redovisades under kapitel 2.4 har post 4 utgått. Den totala summan 
i tabell 4 anger antalet korrekta utfall (jfr tabell 3, dår både fei- och 
nollutfall redovisats). 

Tabellen visar att 96 % av de korrekta utfallen tas ut via titlarna. 
I endast 4 % av fallen behover vi ta hjalp av ref er ens specifika "cues". 

Vad vi dessutom kan låsa ut ur tabell 4 år att det råder en intressant 
skillnad mellan dels nordiska och ovriga referenser, dels svenska och 
ovriga. Når vi ska beståmma tyska, engelska och franska referenser 
tar vi (i ordning) post 3 respektive post 6 till hjalp, ifall post 2 inte ger 
utslag. I fråga om svenska referenser går det inte att anvånda post 3 
(sokord finns inte), eftersom t ex Stockholm resulterar i såvål svenska 



Tabell 4. Posteraas betydelse for utfallet av språkheståmning 
av referenser 



Antal korrekta utfall f5r spraken 



Eng 

f 



% 



Sv 
f 



% 



Ty 



% f 



% 


No 

f % 


Da 

f % 


2 

f 


% 


i 


7 


2 


9630 


96 





56 


35 


297 


2 



Post 2 

(titel) 5733 56 3136 31 639 6 

Post 3 

(ort) 163 2 22 

Post 6 

(inst) 15 205 2 5 

2 59H 58 3341 33 666 6 



113 



11 9 5 250 2 

145 1 72 42 10177 100 



Procenttalen ar beråknade på totalsumman =10 177 (korrekta, tab 3) 

som engelska bocker (avhandlingar, lårobocker i åversåttning etc). Den 
svenska siffran under post 6 ska hår tydas som att det refereras en hel 
del icke tryckt material eller utredningar. Tidskrifter kan vara fack- 
press, årsbocker etc (se ruta 7), Problemet med att de svenska insti- 
tutionsserierna avfattas på annat språk an vad serienamnet anger (t ex 
Lund) har dåremot forsvunnit genom att vi orienterade oss mot post 2 
istållet. 

En annan intressant skillnad år att norska och danska referenser 
bast tas ut via post 3 och dårnåst post 6. Det år alltså tryckorterna 
(Oslo , Kope n harnn ) som tar upp nåstan allt for dessa språk. Det har bl a 
den fordelen att vi kan undvika problemet med att specificera sokord 
for att skilja norska från danska, som år mycket lika i sina formord. 

Vi kan också konstatera att de engelska referenserna låttast kan be- 
ståmmas via sdkord på titlar. Dårnåst f5ljer svenska och tyska. Ju 
fler ord (eller tecken i sekvens) ett språk har gemensamt med ett annat 
språk (t ex grammatiska likheter i de nordiska spraken eller i italienskan 
och franskan), desto svårare blir det att automatiskt beståmma språket 
i material av det hår slaget. Men sett ur ett internationellt perspektiv 
kanske en databas rned t ex nordiska referenser mycket naturligt skulle 
tillhora samma kategori. 






2? 



3. LEXiKON FOR SPRÅKSEPARERING 

Vi har nu efter flera utprovningstillfållen kurmat utkristallisera vissa 
sSkord, som bast separerar referenser på olika språk från varandra. 
Sokorden finns i olika s k poster inom en referens, beroende på 
betydelse i sammanhanget. Vissa sokord år t ex till for att beståmma 
dokumentets tryckort, andra beståmmer om det år fråga om tidskrifts- 
artikel, institutionspublikation etc. Dessa kan kallas referensspecifika 
sOkord, dvs sådana som finns dårfdr att refereringstekniken bjuder så. 
Sedan har vi sådana som år dokumentspecifika, då fråmst titeln. Inom 
titeln finns språkspecifika sokord, som sager på vilket språk doku- 
mentet år skrivet, samt åmnesspecifika sokord, som anger området. 
(Grafotaxen har vi inte beaktat hår.) 

I foregående kapitel visade tabell 4 de olika posternas betydelse fbr 
basta utfall vid separeringen. Det hår kapitlet ska tala om vilka sokord 
inom respektive post som bast kan anvåndas, dvs som "tar upp" de 
fiesta referenser i ett beteendevetenskapligt dokumentmaterial av intres- 
se f5r utbildningssektorn. Hår påminns låsaren om sokteknikens be- 
tydelse for frekvenserna, vilket år viktigt når det galler titelposten: 
Forst påtråffade s6kord ger utslag, dvs referensen sorteras in i respektive 
språkbas (får en kod) och respektive sokord får en frekvensmarkering. 

Presentatioixen avser frekvenserna i tabell 4, korrekta utfall. 

3. 1 Referensspecifika sokord 

De sokord som år specifika for referenserna och som haft betydelse 
hår finner vi inom posterna 3 och 6, som anger tryckort respektive 
tidskrift/institution, etc. 



Tabell 5. Frekvenslista for sokord inom post 3 (tryckort) 















Sdkord 


f 


% 


S6kord 


f 


% 


New York 


101 


34 


Berlin 


5 


2 


Oslo 


51 


17 


Kristiania 


4 


i 


London 


48 


16 


Oxford 


3 


i 


Paris 


21 


7 


Odense 


2 


i 


KSpenhamn 


20 


7 


Frankf. * 


1 





Leipzig 


16 


5 


Krist, * 


1 





K5benhavn 


13 


4 


Pittsburgh 


1 





Chicago 


9 


3 


San Francisco 


1 






Fdrkortningarna f 6r ekorn i materialet. 

Procenttalen år beråknade på totalsumman for post 3 (tab 4) = 297 



- 28 



Har framgår att Ne w York och London tar nåstan allt som publice- 
rats på engelska. Oslo år, som vi kunde vanta oss efter en blick i 
tabell 4, av stor betydelse for nor ska dokument. F6r de ovriga spra- 
ken har post 3 mindre betydelse. Svenska dokument kommer inte ut 
f6rrån vi soker på post 6. Detta framgår också ur tabell 6: 

Tabell 6. Frekvenslista for s5kord inom post 6 (tidskrift, etc) 



Sokord 



% 



Sokord 



% 



* svensk* 
och 

års* 

SOU 

lårar* 

review 

utredning* 

Paris 

arbet* 



57 
40 
29 
28 
27 
15 
12 
9 
6 



23 
16 
12 

il 

10 
6 

5 
4 
2 



norsk* 

Oslo 

schrift 

dansk* 

Kbhn 

prop* 

revue 

und 



5 


2 


4 


2 


4 


2 


3 


1 


2 


i 


2 


1 


2 


i 


i 






Procenttalen år beråknade på totalsumman f6r post 6 (tab 4) = 250 

Hår ser vi att de svenska sokorden dominerar, vilket troligen beror 
på att denna post till stor del specificerar "icke tryckt" material, 
utredningar m m. Ett formord, och , går bra hår. I ovrigt lagger man 
marke till s5korden * svensk * , ars* , SOU och larar * , som tydligt 
visar vilket material det år fråga om. De Svriga spraken har mycket 
liten representation mom post 6. Vi ser också att engelska språket 
endast representeras av ett enda sokord inom denna post. Det betyder 
att typen av engelska dokument år enhetligare an t ex de svenska (se 
tab 4). 



3. 2 Språkspecifika sokord 

Vi bårjar presentationen av sokorden f5r titlar (post 2) med det hogst 
frekventa språket och går nedåt. Observera att titelkortet tar upp 96 % 
av alla korrekta utfall (se tab 4). 



29 - 



Tabell 7. Frekvenslista f5r engelska sOkord: post 2 (titlar) 



Sokord 



% 



Sokord 



% 



Sokord 



% 



the 


1551 


17 


measur* 


93 


2 


how 


25 





of 


1028 


18 


child* 


92 


2 


into 


24 





and 


902 


16 


learning 


86 


1 


adult* 


23 





study 


239 


4 


some 


83 


i 


its 


17 





on 


237 


4 


psychological 


76 




training 


17 





psychology 


147 


3 


studies 


67 




by 


15 





education 


146 


2 


methods 


65 




America* 


13 





analysis 


132 


2 


as 


56 




is 


13 





educational 


116 


2 


personality 


44 




or 


12 





teach* 


104 


2 


from 


34 




towards 


10 





school* 


103 


2 


with 


32 




who 


7 





research 


96 


2 


reading* 


28 












Procenttalen år beråknade på totalsumman f5r post 2 (tab 4) = 5 733, 
engelska 

Hår dominerar tre språkspecifika formord, nåmligen the, of och and , som 
tar upp drygt 60 % av det engelskspråkiga materialet. De sokord som dår- 
nåst år anvåndbara år de amne s specifika. psychology , education och school * 
t ex år mycket vida begrepp, som anger en hel sektor. Ur informations- 
synpunkt ger de dårfbr mycket lite ur en dokumentbas f5r utbildningsforsk- 
ning. 

Att formorden har få "tråffar" relativt sett beror bl a på att inte alla 
ord kan fdrekomma i titelns bOrjan. 

Tabell 8. Frekvenslista f6r svenska sdkord: post 2 (titlar) 



SSkord 



% Sokord 



% Sokord 



% 






och 


757 


24 


tran 


59 


2 


vux* 


26 




* skola* 


251 


8 


låro* 


57 


2 


beteende 


25 




* svensk* 


217 


7 


* historia* 


56 


2 


eller 


23 




for 


209 


7 


att 


52 


2 


hos 


19 




* psykologi* 


179 


6 


Sverige 


52 


2 


inom 


21 




till 


165 


5 


* pedagogik* 


45 


1 


* skolor* 


21 




barn* 


116 


4 


*måtning* 


31 


1 


personlighet 


19 




* undersSkning* 


96 


3 


be tank. 


29 


1 


hur 


18 




*utbildning* 


87 


3 


mellan 


29 


1 


*pedagogiska* 


16 





ars-'' 


86 


3 


vad 


29 


.1. 


* utredning* 


15 





ett 


80 


3 


uppfostr* 


27 


i 


år 


13 





* arbet* 


75 


2 


ur 


27 


1 


samt 


7 





någ* 


71 


Z 


begåvning* 


26 


l 


vern 
info r 


7 

4 







Procenttalen år beråknade på totalsumman for post 2 (tab 4) = 3 136, svenska 



30 



Vi ska vara tacksamma f5r vårt och. Det år ett språkspecifikt ord som 
har mycket stor separeringsformåga. Flera steg efter kommer några am- 
nesspecifika, namligen * skola* , :i< svensk * , * psykologi * och barn * , 
som sammanfattar området, precis som i den engelska listan. Ett par 
prepositioner befinner sig bland dem, namligen fdr och till . En hel del 
formord har inte heller i svenskan sårskilt hog frekvens sett ur vårt 
sdktekniska perspektiv. * peda gogik* forekommer mera sållan i utbild- 
ningsforskarnas referenslistor an * psykolog i* . Vad ett sådant resultat 
återspeglar kan vi hår inte saga- I så fall kravs en annan slags frekvens- 
råkningsteknik an den sorteringsmekanism som anvånds hår. 

Tabell 9. Frekvenslista for tyska sokord: post 2 (titlar) 



Såkord 



% Sokord 



% Sokord 



% 



die 


108 


17 


w e rk* 


13 


2 


pådagogik 


7 




und 


84 


13 


untersuchung* 


11 


2 


pådagogisch 


7 




uber 


71 


11 


bei 


10 


2 


oder 


6 




zur 


57 


9 


schul* 


10 


2 


schrift* 


5 




das 


42 


6 


vom 


10 


2 


unterricht* 


5 




geschichte 


35 


5 


deutsch* 


9 




nach 


3 





ein * 


28 


4 


fiir 


9 




*forschung* 


2 





erziehung* 


23 


4 


psychologisch* 


9 




mit 


2 





*buch* 


17 


3 


als 


8 




ohne 


2 





bildung* 


14 


2 


im 


8 




zum 


2 





* jugend* 


14 


2 


* w i s s en s chaf t * 


8 


i 


auf 


1 






Procenttalen år beråknade på totalsumman f6r post 2 (tab 4) = 639, tyska 



Fem formord toppar den tyska listan, bl a beroende på det tyska språkets 
"explicithet" . Dessutom får det historiska st5rre betydelse hår genom 
Geschicht e. Amnesområdet år aldre på tyskt språkområde ån på svenskt. 
Schul * har relativt sett lite mindre betydelse for tyskt språk ån for 
svenskt och engelskt, men det år ånda ungefår samma åmnessfår som 
kommer till uttryck, t ex Erziehun g* och Jugend * . 

Danska och norska har endast varsitt såkord inom titeln och ingår ej 
i någon tabell. (Orden var "norsk" och "undersj^gelse" med 7 respektive 
2 frekvenser. ) 

Det återstår endast några få frekvenser for de franska sokorden. 



31 



Tabell 10. Frekvenslista fbr franska sokord: post 2 (titlar) 



Sokord 



% 



Sokord 



% 



V 


40 


35 


ou 


5 


4 


sur 


18 


16 


fransaise 


3 


2 


les 


12 


10 


pour 


2 


2 


oeuvre* 


10 


9 


un 


1 


1 


chez 


10 


9 


une 


1 


1 


France 


6 


5 








dans 


5 


4 









Procenttalen år beråknade på totalsumman for post 2 
(tab 4) = 113, franska 



De franska sokorden år få» eftersom vi inte har velat få en sammanbland- 
ning med engelska eller italienska. Strangen *ique* kunde t ex inte an- 
våndas. Y har dock så stor effekt att det ånda fått kvarstå. 

Beståmda artikeln V dominerar hår, liksom i engelskan, fåljd av sur 
och les . Det man låser på franska år oeuvre* (jfr ty Werk * ) men det går 
inte fram vad de handlas om. Några åmnesord finns inte alis hår, pga 
for stor sammanblandning med andra språk (jfr 'psychologie* ). Anvånd- 
ningen av diakritiska tecken har inte tillåtits i vår utrustning (jfr e'ducation- 
education). Tecknet _£ (franjaise i tab 10) har alltså stansats c och accent- 
tecknet i egen kolumn (apostrof). 

3. 3 Olika soknivåer 



I kapitel 2 angavs i samband med att kriterier uppstålldes fdr ett språk- 
separeringslexikon att "diskriminatorer" kan finnas på en tredje nivå, 
nåmligen den grafotaktiska. Det finns studier som redovisar hur grafem 
(ung. bokstav) kan inta unika kombinationer, dvs grafemens syntaktiska 
regler hindrar eller befråmjar vissa sammanstållningar. Sådana kom- 
binations studier av autografemens (vokal-) och syngrafemens (konsonant- 
kombinationer) strukturer kunde goras i och med att datorer kom till an- 
våndning i språkforskningen. 

En teckensekvens, som vi anvånder ordet, kan bestå av digram (två- 
kombinationer), trigram (trekombinationer), etc. Dessutom kan man 
specificera var i sekvensen kombinationen ska forekomma; i b5rjan, 
i slutet, som forstå digram efter fårsta vokal, etc. Frekvenser for 



- 32 



sådana kombinationer redovisas och diskuteras i Allen (1971, kap 5). 

Datamaskinens anvåndning har också gjort det mdjligt att, baserat 
på en modell om fonem, stavelser eller morfem, "tillverka" nya 
svenska ord som år lediga och som uppfyller de krav som språk- 
modellen fdr svenska stavelser etc staller. Detta har utnyttjats i 
reklamen vid bildandet av varunamn (Sigurd, 1970). 

Vad hade det inneburit for vår analys att halla oss på den grafotaktiska 
nivån? Ja, vi hade troligtvis inte kunnat g6ra just den hår typen av jåm- 
forande analys utan ett omfattande merarbete i att fOrsåka anskaffa 
grafotaktiska uppgifter fdr olika språk, som inte baseras på frekvenser. 
Att utveckla program f6r att utkristallisera unika grafemkombinationer 
hade inte varit rimligt. Amnesorden gav i denna studie en god uppfattning 
om området, vilket en konsonantkombination sjålvfallet inte gor. Dessutom 
baseras vår sokteknik på sokning "från vånster". Ett letande efter en 
unik kombination av auto- och eller syngrafem hade troligen tagit långre 
tid och blir dyrt når det galler så hår stora textmångder. Dåremot hade 
det varit intressant i ett projekt av annan karaktar. 



33 



4. NÅG RA KONTR OLLER OC H JAMFQRELS ER 

4. i Verk och referenser 

Separeringsprogrammet, såsom det redovisades i ruta 8, har testats 
på verkbasen. For en jåmforelse med referenserna (hela materialet i 
tabell 3, s 23) presenteras en oversiktstabell 5ver utfallet på hela 
verkbasen. 



Tabell 1 i. Språkbeståmning av vex*k: 
Hela materialet 



% 



Korrekta 
utfall 


716 


90. 18 


Felaktiga 
utfall 


3 


. 38 


Ovriga 


75 


9.45 


2 


794 





Tabell li visar att drygt 90 % av utfallen blir korrekta. Det år en ok- 
ning med 4 % jåmfort med referensbasen (tabell 3). De verk som inte 
beståmts via programmet år dårmed också fårre an i referenserna. 
Aven andelen fei minskar. Orsakerna ligger nårmast i att forskarna 
inte producerar sig på lika många språk som de låser (eller refererar). 
Basen innehåller fråmst svenska och engelska i nu nåmnd ordning. SSk- 
orden får Svriga språk har xnte i nåmnvård grad kunnat fyllas upp med 
frekvenser. 

En jåmforelse mellan de två baserna ifråga om svenska och engelska 
sokord har kunnat goras. Foljande kunde noteras: Det råder stor over- 
ensståmmelse mellan proportionerna per såkord mellan de bada ba- 
serna. Men några få skillnader kan synas intressanta. 

I forskarnas egna egna titlar tar sokorden f5r , * pedagogik >:< och 
*måtning* upp fler dokument ån i referenserna. (Skillnaden år då minst 
tre procentenheter. ) I dessa tar dåremot * svensk * och barn * storre 
andel. 

Når forskarna producerar engelska titlar blir det fråmst educational 



- 34 



oc k s£u< ^y som skiljer sig från referenstitlarna. Det eng el ska materialet 
tas båttre upp av the och psychology. I verktitlarna har ingen frekvens 
noterats for ]3sy_choLogy_ eller * his^toria, som bada finns i referenserna. 

Vad dessa få skillnader betyder ar svart att saga f n. Att procent- 
talen åndrar sig når det galler några få sSkord torde fråmst ha att gåra 
med dispositionen av titeln (ord i b5rjan får frekvenser). Men forst 
efter ingående studium kan vi saga om eventuella skillnader avspeglar 
innehållsliga eller strukturella fåråndringar, t ex genom att ta in en 
tidsdimension. 

Kontrollen av programmet har givit det resultatet att vi kan anvånda 
samma sokord på verk och referanser och rakna med ett likartat utfall. 
Dessutom ar variationen inte så stor i verktitlarna som i referenstit- 
larna, vilket gor att en sdkning i verken ger lite båttre utfall. 



^> 2 Manue ll och au tomatisk språ kbestå mning 

Vid kodningen av de 40 forskarnas verk utnyttjades en sjunde post fdr 
dokumentkarakteristika av annat slag an de bibliografiska uppgifterna 
(se ruta 1, s 4). I nom post ? kodades bl a om dokumentet år svenskt 
eller ftversattning till annat språk. Kodbeteckningen år svensk = 1, 
annat språk = 2. Upplysning om vilket det andra språket år ansåg vi 
oss inte behdva. Vi har ju också sett i kapitel 4, 1 att det fråmst år 
engelska som oversåttningen avser (forfattarna år svenska). 

Vid kodningen har en person anvånt fotostatkopier av titelbladet/ 
forstå sidan av verket. Det år inte troligt att någon annan uppgift ån 
sjålva titeln kommit till anvåndning vid språkkodningen. 

En jåmfOrelse mellan den manuella kodningen, omfattande 2 koder 
(typ "ja-nej") och den automatiska, omfattande 6 koder har gjorts 
maskinellt och resulterade i en korstabell, som visar andelen Gverens- 
ståmmande kodning. Om man går in i tabellen i raden f&r "svensk" och 
låser av kolumnen fSr "svensk" så avlåses hur stor 5verensståmmelsen 
år, Sammanlagt skiljer sig den manuella och den automatiska kodningen 
till 2. 8 %. På vilket satt visas i tabell 12, 



Tabell 12. Jåmforelse mellan manuell och automatisk 





språkkodning 


av 


verk 


Felanalys 








Kodning 


Sv No 




Da 


Feiko 
Ty 


dning 

Eng 


Fr 


Zf 


% 


Automatisk 
Manuell 


4 
4 




1 

1 


1 
2 

3 


i 
11 

12 


- 


3 
17 
20 


.4 
2.4 
2.8 



Totala antalet verk = ?94 



Antalet fei fåljer inte språkens procentuella andel i verkbasen: De 
engelska felen år betydligt fler an de svenska. Dessutom finns de 
svenska felen inte i den automatiska kodningen. I den manuella kod- 
ningen har 11 engelska titlar kodats som svenska. Det hånder inte 
med det automatiska programmet. 

Det automatiska engelska feiet år intressant. Samma fei har nåmli- 
gen kodaren också gjort, Titeln lyder: "The cycling strength test (CST) 
som prediktionsinstrument vid provning av skyttesoldater". Når vi 
byggde upp det automatiska programmet f5rsokte vi fårhindra sådana 
fei genom att infora en hierarkisk ordning i sokproceduren (se ss 16 och 
19). Detta har tiils vidare inte gållt,, vilket ger till resultat att t he blir 
nyckelord får insortering i den engelska basen. Vår kodare tyeks ha 
gått tillvåga på samma satt, åtminstone har inte fler an de fyra fårsta 
orden lasts. 

De ovriga felen studeras inte nårmare hår. Vid ett ytligt betraktande 
år det svart att forklara de manuella felen. En trotthetseffekt kan ha in- 
tråffat. Det år monotont att bara halla reda på koderna 1 eller 2. Vid 
flera koder år det kanske låttare att behålla uppmårksamheten? Stans- 
ningen år kontrollerad, vilket utesluter åverforingsfel. (Stansning utf5rs 
av institutionens stansoperatris, som inte år samma person som koda- 
ren. ) En stanskontroll år rapporterad inom det anslutande projektet, 
dår det bl a konstaterades att de fiesta fei gors vid text, trots att de 
numeriska koderna år fler (I. Bierschenk, 1974, s 33). 

Andelen fei (2, 8 %) bor betraktas som liten» Men inom den felmargi- 
nalen (som kan oka vid manuell kodning med stdrre material) bår skill- 
naden (2 %) mellan manuell och automatisk kodning uppmårksammas. 



36 



F n har vi i jårnioreisen uteslutit den del dår vi ånnu inte har utvecklat 
rutiner, t ex subrutiner i søkningen med hjalp av ett antal villkor (9.4 % 
av materialet i verkhasen). Automatisk kodning tycks trots detta vara 
overlågsen, vilket betyder att en utveckling av des sa rutiner kan och 
bdr fortsåtta. 

4* 3 Al dre och nyare data 

En kompletterande datainsamling har skett sedan dokumentbaserna lades 
upp. Denna insamling gjordes for att tåcka de senare årens produktion 
(1975-77) hos de 40 forskarna, Ef ter som I&D-projektet ansluter sig till 
ett tidigare projekt, dår dessa forskare ingår kom datainsamlingen att 
avslutas med detta projekts årtalsgråns (1974). Men det torde vara 
vårdefullt att det nya projektets data år så aktuella som mojligt. Dessutom 
har det talats, ' åtminstone i vissa grupperingar, om ett s k "paradigm- 
byte" i forskningen omkring 1974, och om så år fallet finns det ju an- 
ledning att studera om detta återspeglas i litteraturen. 

Separeringsprogrammet har provats på denna nytillkomna referens- 
bas, Storleksordningen mellan spraken år densamma som tabell 3 (s 23) 
visar, aven om andelen svenska referenser tycks ha okat. For en jåm- 
forelse av programmets verkan på den aldre och den nyare basen g5rs 
en sammanstållning i tabell 13. 

Tab ell 1 3. Kontroll av språks eparering: 
Aldre och nyare referenser 



Referensbaser 

(1937-74) 

% 



(1975-77) 

% 



Korrekt 

Fei 

Ovr 

2 



86 

i 

13 

100 



87, 5 
.5 
12 
i 00 



Bastal n = il 831 respektive 4 062 



Som vi ser i tabell 13 går det knappa st att tala om några skilinader. Om 
skiiinaden som trots allt kan utlåsas verkligen återspeglar en forbått- 
ring, så bor den vål tolkas så att en del litteratur som orsakar besvar 
for programmet (for det mesta aldre litteratur) inte har citerats under 
denna period. 



37 



Studier i lexikonen visar på att några åmnesords separeringsformåga 
(frekvens) åndrar sig. Det år fortfarande samma ord som år gångbara, 
men de byter rang. T ex okar de engelska e ducational , education och 
research . Fdr tyskan marks ingen speciell okning av något ord. Istållet 
minskar Geschichte och Werk* i betydelse. I de svenska referenserna 
marks fråmst en okning i * sko la* , * utbildning * och * utredning a . Om 
foråndringar av det hår slaget verkligen år fdråndringar av referens- 
ramar kan bl a vårt nåsta resultat hjålpa till att belysa. 

Det visar sig nåmligen att formorden inte foråndrar sig. Eftersom 
s5kproceduren har gått till på samma satt senn tidigare och strukturen 
i titlarna tyeks vara konstant, kan studier av foråndringar i begrepp bli 
meningsfulla. 



- 38 



5. SAMMANFATTNING 

Med ledning av de explorationer och kontroller som gjorts ska detta 
kapitel sammanstålla några punkter som vågvisare for det fortsatta 
arbetet med att bygga upp ett information s system inom utbildnings- 
sektorn i Sverige. 

1 . S pråkseparerxng 

Det material som år tånkt att tas in och bearbetas kommer att behova 
underkastas en hel del automatiska fdrfaranden. Vid stora mångder 
refe renser år det av stort varde att separera dokument i f riga om 
språk. Våra studier har visat att re dan ett enkelt program fungerar 
båttre an en man uell kodning. Ett sådant rutinarbete bSr laggas over 
på en da.tor. Månniskan år helt enkelt inte reliabel. Man kan också 
uttrycka det med att maskinen inte kan fantisera medan den utf5r in- 
struktioner. 

Att utveckla klassificeringsrutinerna på detta område år våsentligt 
och har ett generellt varde» inte minst med tanke på att många in- 
fo rmationssoknings system som utveckiats inom olika språkområden 
ska kunna sammankopplas utan att fdr mycket brus uppstår i baserna. 

Fdrutsatt att kontroller av separeringsprograrnmet gors med 
jamna mellanrum har vi genom dessa automatiska rutiner mdjlighet 
att upptåcka når foråndringar intråffar i såttet att skriva referenser, 
att strukturera titlar, att tackla ett problemområde eller f6råndringar 
i publiceringspolicyn. Det skulle vi knappa st marka om vi kodade 
manuellt. 



2, Expe rirnentb aser 

F6r ett utvecklingsarbete av det hår slaget kravs ett omfattande experi- 
menterande som rttr språkvetenskapliga, datatekniska, statistiska 
och i vårt fall beteendevetenskapliga frågestållningar. Det år ofta 
praktiskt att ha ett mindre, hanterbart material f5r detta åndamål. 
Våra studier har visat att verkbasen inte skiljer sig nåmnvårt från 
den stora referensbasen ifråga om sSkord i titlar. Studier på nyinsamlade 
data visar dessutorn att det inte råder någon skillnad mellan den stora 
referensbasen och den nyinlagda ifråga om programmets precision. 
Några stbrre skillnader i procenttalen mellan spraken finns inte heller. 



39 - 



Det gor att olika re sultat från experiment i de mindre da ta baserna år 
mdjliga att generali sera t ill den storre basen. 

3* Strukturer i vetenskapliga dokumentt itlar 

Den sokteknik vi utprSvat for snabb språksep arering resultera r i 
frekven ser av sdko rd sorn ha r samban d med de strukturer so m en 
titel har. Vissa formord år t ex vanlig a i borjan, andra långre fram. 
Man kan formodligen också tala om givna monster: iS Om titeln inne- 
haller tre forrnord och det fftrsta år x, så år sannolikheten si eller så 
stor att de andra två år y och z i nu nåmnd ordning", etc. Bland dessa 
hdgfrekventa s k språkspecifika s5kord kan vi ur skil ja ord av olika 
slag. Fttrutom formord har vi ett slags neutrala presentationsord av 
typen Studier av . . . , En analys av . , . , Forskning kring ... I detta 
material skulle de mycket vål kunna råknas till formorden. De tillhbr 
såttet att presentera ett vetenskapligt arbete. Den tredje gruppen har 
kallats åmnesord som kan exemplifieras med psyk ologi » skola och 
education. Ur informationssynpunkt år åmnesorden ointressanta. 
Inte fcirrån de bryts ner i avg rans ade delområden år de av intresse, 
*• ex arbetspsykologi, f6£jkp_la, spe ei al education. Men anvånda som 
s5kord i en omfattande databas år risken stor att de tar upp mångder 
av dokument, eftersom de representerar vida sektorer inom utbild- 
ningen. Det år ju £5r differentieringens skull man vill skapa en 
låmplig s5kprofil. 

Vad en fortsåttning b5r kunna ge svar på ifråga om titlars in- 
formationsvårde år 

(i) Hur år en titel strukturer ad? 

(2) Var i strukturen finns de informativa begreppen och hur år de 
uppbyggda? samt 

(3) Hur ska dessa kunskaper presenteras i en tesaur for att så många 
som mojligt ska kunna anvånda den? 

^' F5råndringar 5ver tid 

Den sista kontrollen avsag en jåmfSrelse rnellan den stora databasen 
av referenser från åren 1937-74 och en nyinlagd bas med en komplette- 
ring for åren 1975-77. 

Det visa de sig att formorden , som anger s tru kturen i titlarna, inte 
ftiråndr ar sig proportionellt från aldre till ayare data. Dåre mot tyeks 
vi s sa åmne sord andra sig . Detta har stora implikationer for fortsatta 



40 - 



studier av begrepp och begreppsrelationers fdråndringar. Om vissa 
begrepp anvånds ofta eller på nytt satt på senare år, så finns det an- 
ledning att formoda att sådana foråndringar kan spåras aven i den 
stora referensbasen. Ett intressant angrepp kan vara treårs-cyklar 
f5r sådana trendanalyser. Andra studier i materialet har nåmligen 
visat att treårsintervall år en meningsfull gruppering. Det år t ex 
den vanligaste anslag sperioden i projektforskningen, vilket marks i 
rapporteringen. 



- 41 - 



REFERENSER 



Allen, S. I ntroduk tion i g r afonomi. Stockholm: Almqvist & Wiksell, 1971. 

Allen, S. , Jårborg, J. & Ralph, B. Svensk ordbok och lexikalisk data- 
bas. Forstudierapport. Stencil (Goteborg: Inst. for språkvetenskaplig 
databehandling), 19??. 

Bierschenk, B. Handledning for rapportering av beteendevetenskaplig 
forskning. Pedagogisk dokumentation, Mr 18, 19? 3. 

Bierschenk, B. Perception, strukturering och precisering av pedago- 
giska och psykologiska forskningsproblem på pedagogiska institu- 
tioner i Sverige. Pedagogisk-psyko logiska problem , Nr 254, 1974. 

Bierschenk, I. Konstruktion av ett regelsystem for en datorbaserad 
innehållsanalys av intervjutext: Preliminårmanual och några utprov- 
ningsresultat. Testkon struktion och testdata, Nr 25, 1974. 

Sigurd, B. Att tillverka ord. I: Allen, S. & Thavenius, J. (Red.) 
Språklig databehandling. Lund: Studentlitteratur, 1971. Ss 77-85.